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【 目的 ] 将 维基 百科 蕴涵 的 世界 知识 以 词 向 量 方式 融和 TextRank 模型 ， 改 进 单 文档 关键 词 抽 取 效 果 。 


【方法 ] 利用 Word2Vec 模型 基于 维基 百科 中 文 数据 , 生成 词 向 量 模型 ， 对 TextRank 词 图 节点 的 词 向 量 进行 聚 类 
以 调整 簇 内 节点 的 投票 重要 性 ,结合 节点 的 覆盖 和 位 置 因素 , 计算 节点 之 间 的 随机 跳 转 概率 ， 生 成 转移 矩 
阵 ， 最 终 通 过 迭代 计算 获得 节点 的 重要 性 得 分 ,选取 前 TopN 个 词语 生成 关键 词 .[ 结果 ] 当 TopN 友 7 时 , 词 
向 量 聚 类 加 权 方 法 均 优 于 对 比方 法 ; TopN=3 时 ,FF 值 取得 最 大 值 ， 比 先前 最 优 结果 增 量 提升 了 3.374%; TopN>>7 时 ， 


结果 与 位 置 加 权 法 相似 。[ 局 限 】 聚 类 分 析 使 得 计算 开销 变 高 。[ 结论 】 词 向 量 聚 类 加 权能 够 改善 关键 词 抽取 


效果 。 
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1 3 引 


关键 词 抽取 是 指 从 给 定 的 文本 中 自动 抽取 出 若干 
有 代表 性 的 词语 或 词组 ,用 以 反映 文本 的 主要 语义 信 
息 , 在 图 书 情报 领域 有 着 广泛 的 应 用 。 例 如 , 根据 文献 
的 关键 词 抽取 结果 构建 词 频 矩阵 , 在 关键 词 级 别 上 进 
行 共 词 分 析 , 可 以 获取 文献 主题 的 发 展 变化 ， 进 而 文 
持 图 书馆 海量 数据 的 内 容 挖 掘 与 分 析 。 在 实现 策略 方 
面 , 关键 词 抽取 既 可 以 利用 文本 本 身 的 内 容 和 结构 特 
征 实现 , 也 可 以 通过 对 大 量 语 料 进行 训练 学 习 得 到 ， 
由 于 前 者 不 需要 先期 训练 过 程 ， 实现 相对 简单 ， 并 能 
达到 令 人 满意 的 抽取 效果 , 因此 近年 来 引起 了 广泛 关 
注 ， 其中, TextRank 为 该 类 算法 的 典型 代表 。 

传统 的 TextRank 算法 仅 利用 了 文档 本 身 的 信息 ， 
如 果 能 够 将 外 部 知识 引入 到 关键 词 抽 取 过 程 之 中 , 理 
论 上 可 以 改善 关键 词 抽取 的 效果 ，2013 年 以 来 兴起 的 
词 向 量 表 示 法 ,能 够 将 词语 的 语义 投影 到 一 个 低 维 连 
续 空 间 中 , 并 保持 词语 在 语料库 中 的 语义 特点 ， 因 此 ， 


了 中 


本 文 利用 目前 最 大 的 维基 百科 在 线 开 放 知 识 库 ， 通 过 
Word2Vec 模型 训练 生成 词 向 量 , 并 进行 词 向 量 聚 类 ， 
根据 词语 的 聚 类 分 布 情况 对 TextRank 词 图 节点 进行 
非 均匀 加 权 ， 从 而 将 单一 文档 外 部 的 世界 知识 融合 进 
TextRank 的 计算 过 程 中 , 实现 了 具有 较 好 效果 的 关键 
词 抽取 。 


2 相关 工作 


TextRank 将 链接 分 析 中 的 PageRank 算法 思想 引 
入 到 文本 之 中 , 将 特定 粒度 的 文字 单元 及 其 共 现 关系 
表示 为 图 结构 , 并 通过 图 的 迭代 计算 实现 重要 性 排序 中 
当 以 词语 作为 基本 粒度 时 , 可 以 用 于 关键 词 抽取 ， 而 
以 句子 为 基本 粒度 则 可 以 用 于 文本 摘要 。 由 于 其 效果 
优 于 传统 的 TF-IDF, 并 且 实 现 简单 , 因此 得 到 了 广泛 
应 用 。 

原始 TextRank 构建 的 词 图 中 未 考虑 边 的 权重 , 为 
进一步 提高 关键 词 抽取 效果 , 文献 [2] 将 词语 根据 其 位 
置 加 权 , 从 词语 的 覆盖 影响 力 、 位 置 影响 力 和 频 度 影 
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内 部 词语 的 邻接 关系 构成 一 个 词 图 ， 进而 根据 词语 在 


抽取 效果 。 文献 [3] 则 进一步 将 TextRank 与 LDA 主题 
模型 融合 到 一 起 , 综合 考虑 单一 文档 的 结构 信息 和 文 


词 图 中 的 结构 特征 计算 其 重要 性 。 为 构建 候选 关键 记 
图 , 基于 前 人 研究 外 ,将 文本 按 句子 分 割 ,进行 分 词 和 


档 整体 的 主题 信息 , 研究 发 现在 数据 集 呈 现 明显 的 主 
题 分 布 时 , 对 关键 词 抽取 效果 有 一 定 改善 。 文 献 [4] 提 
出 了 Tag-TextRank 方法 , 利用 网 页 的 社会 化 标签 提高 
网 页 关键 词 抽取 的 效果 。 文 献 [3] 在 词语 位 置 加 权 
TextRank 基础 上 ,同时 考虑 词语 的 逆 文 档 频 率 ,实现 
关键 词 抽取 并 用 于 论文 审 稿 自动 推荐 之 中 。 近 年 来 ， 
随 着 Word2Vec 词 向 量 模型 的 兴起 ， 人 们 开始 尝试 将 
Word2Vec 应 用 于 关键 词 抽取 之 中 。 文 献 [6] 根 据 词 向 
量 之 间 的 相似 度 进行 词汇 聚 类 , 针对 每 个 聚 类 结果 簇 
选择 距离 质心 最 近 的 词语 作为 关键 词 , 实现 关键 词 抽 
取 。 文 献 [7] 利 用 Word2Vec 计算 词汇 之 间 的 相似 度 矩 
阵 ， 并 融入 到 TextRank 词 图 计算 过 程 中 , 以 改善 抽取 
效果 。 

综 上 所 述 , 在 词 图 加 权 基 础 上 ， 如 何 将 文档 外 部 
信息 纳入 到 TextRank 的 计算 过 程 中 , 是 改进 TextRank 
关键 词 抽取 的 关键 。 已 有 的 主题 加 权 馈 、 逆 文档 频 度 
加 权 包 等 方法 需要 对 待 抽取 文档 本 身 所 在 的 数据 集 进 
行 预 处 理 , 结果 因数 据 集 不 同 而 差异 较 大 。Word2Vec 
的 训练 数据 独立 于 待 抽取 的 文档 , 利用 其 训练 生成 的 
词 癌 量 对 TextRank 进行 改进 , 理论 上 可 以 得 到 更 为 稳 
定 的 抽取 结果 。 与 文献 [7] 直 接 根据 词 向 量 相似 度 调整 
词语 之 间 的 跳 转 概率 不 同 , 本文 首先 对 单一 文档 进行 
词 向 量 聚 类 ,进而 根据 词语 与 聚 类 质心 的 距离 关系 对 
词语 重要 性 加 权 , 构建 新 的 概率 转移 和 矩阵， 进行 关键 
词 抽取 , 并 取得 了 最 佳 效 果 。 


3 ”研究 方法 


基于 TextRank 的 关键 词 抽取 方法 把 关键 词 抽取 
问题 转换 为 构成 文档 的 词语 的 重要 性 排序 问题 , 为 此 ， 
笔者 首先 构建 候选 关键 词 词 图 (简称 词 图 )， 用 于 表示 
词语 之 间 的 结构 关系 ; 然后 根据 词语 的 词 向 量 进行 聚 
类 分 析 ， 以 词语 在 簇 中 的 空间 位 置 关 系 确定 词语 的 聚 
类 重要 性 ,实现 TextRank 的 聚 类 加 权 ; 最 后 构建 完整 
的 词语 之 间 的 概率 转移 矩阵 , 通过 迭代 运算 获取 节点 
的 重要 性 , 实现 关键 词 排 序 和 抽取 。 
3.1 词 图 构建 

根据 TextRank 的 基本 思想 , 一 篇 文档 可 以 根据 其 


词性 标注 , 保留 非 单字 词 的 名 词 .动词 和 形容 词 , 构成 
词 图 的 节点 集 太 所 有 词语 之 间 的 邻接 关系 构成 词 网 
的 边 集 已 形成 候选 关键 词 图 G=(V, EE)。 在 构建 边 时 ， 
假设 词语 a 后 面 邻 接 出 现 词 语 5, 则 同时 在 词 图 中 增 
加 两 条 有 向 边 a 一 六 和 一 a， 即 词 图 G 是 一 个 有 向 
图 ， 如 图 1 所 示 。 


图 1 候选 关键 词 词 图 示例 


给 定 以 上 词 图 G=(7V,E), 今 t(u) 表示 节点 wu 的 

TextRank 值 ， 则 t(w) 可 以 采用 公式 (D 计 算得 到 口 。 
(A)= 4a pl Wt -DT (1) 

其 中 ，d e[0,1] 为 阻尼 系数 ,表示 任 一 节点 均 有 
1-d 的 概率 随机 跳 转 到 词 图 中 的 其 他 节点 ， 以 保证 
TextRank 的 迭代 计算 可 以 收敛 , 通常 取 值 为 0.85; 
adj[lu]= fy|(v 二 wu)eB} 表示 节点 u 的 相 邻 节点 集 ; 
pw 一世 表示 由 节点 vv 到达 zx 的 随机 跳 转 概率 。 

传统 的 TextRank 算法 在 相 邻 节点 之 间 采 用 均匀 
跳 转 策略 ,节点 之 间 的 跳 转 概率 p(w 一 妇 由 公式 (2) 
计算 得 到 口 。 


1 
~- ， 矿 3 
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0 Otherwise 

其 中 ，deg(w) 为 节点 的 度 ; 以 图 1 为 例 , 节点 v 跳 
转 到 任 一 相 邻 节点 的 概率 p(v 一 vv |ie[l,…,5]) = 0.2。 
为 改进 TextRank, 文献 [2] 提 出 根据 节点 重要 性 进行 非 
均匀 跳 转 的 优化 策略 ,取得 了 较 好 效果 ,然而 该 研究 
在 计算 跳 转 概 率 时 , 仅 利 用 文档 本 身 有 关 的 信息 ， 即 
根据 所 跳 转 到 词语 节点 的 出 现 位 置 、 频 度 进行 加 权 。 
为 利用 文档 外 部 信息 优化 跳 转 概率 的 赋值 ， 笔 者 进 一 
步 提出 词 向 量 聚 类 加 权 算 法 。 
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3.2” 词 向 量 聚 类 加 权 

2013 年 ，Mikolov 等 发 布 了 词 向 量 训练 工具 
Word2Vec, 利用 浅 层 神经 网 络 模型 自动 学 习 词语 在 
语料库 中 的 出 现 情 况 ,把 词语 乱入 到 一 个 维度 适中 
的 空间 中 ,， 即 words -> R", 维度 nn 通常 在 100 至 500 
之 间 , 词语 在 新 空间 R" 中 的 表示 结果 即 为 词 向 量 钻 。 
相 比 于 传统 的 文本 表示 法 ,Word2Vec 生成 的 词 向 量 
不 仅 维度 较 底 ,词语 之 间 的 语义 和 句法 关联 关系 在 
空间 中 也 能 得 到 很 好 的 体现 , 一 方面 语义 相近 的 词 
语 在 空间 中 的 距离 也 相近 ; 男 一 方面 , 词 向 量 之 间 的 
线性 操作 结果 与 人 的 理解 也 相符 合 。 可 以 说 ， 
Word2Vec 训练 学 习 得 到 的 词 向 量 蕴 涵 了 词语 在 大 规 
模 数据 集中 的 语义 信息 ， 因 此 ， 可 以 利用 文档 的 词 向 
量 之 间 的 关系 , 对 TextRank 词 图 节点 之 间 的 跳 转 概 
率 进 行 加 权 。 

本 研究 假设 如 下 : 词 向 量 反 映 了 世界 整体 信息 ， 
一 篇 文档 可 以 根据 词 向 量 之 间 的 相似 度 聚 为 知 干 复 ， 
一 个 词语 距离 所 在 簇 的 质心 越 远 , 则 越 能 反映 一 个 簇 
的 区 别 于 质心 附近 词语 的 不 同方 面 信息 ， 在 作为 
TextRank 中 的 词语 节点 时 ， 其 投票 的 重要 性 越 高 , 在 
与 之 相 邻 的 节点 之 间 拥 有 更 高 的 跳 转 概率 。 

给 定 文档 d 及 其 包含 的 候选 关键 词 词语 集合 
fw 以 及 训练 得 到 的 Word2Vec 词 向 量 模 
型 ， 今 w 表示 词语 w 对 应 的 词 向 量 , 令 
C= {Ci,C,,…,Ci} 表示 由 文档 的 词 向 量 集合 进行 天 


均值 聚 类 后 的 聚 类 结果 , 笔者 提出 公式 (3) 计 算 任 一 词 
语 在 所 隶属 的 篮 C, 中 的 投票 重要 性 。 
VoteWeight(u) = AQ) x|C, | (3) 


二 

其 中 ，c 为 复 C, 的 质心 所 对 应 的 向 量 ，d(wec ) 
表示 词 向 量 空间 中 向 量 y 到 向 量 忆 的 欧 氏 距离 ， 
1C, | 表示 簇 C, 所 包含 的 词语 数量 。 公 式 (3) 表 明 , 一 个 
簇 的 总 投票 分 值 为 秘 所 包含 的 节点 数量 , 簇 内 每 个 节 
点 的 投票 权重 根据 距离 质心 的 欧 氏 距离 按 比例 分 配 ， 
距离 质心 越 远 则 投票 的 重要 性 越 高 。 

当 把 两 个 节点 在 词 向量 空 间 中 的 语义 关联 关系 表 
示 为 节点 之 间 的 聚 类 加 权 影 响 力 , 在 进行 聚 类 分 析 并 
计算 得 到 每 个 词语 的 投票 重要 性 后 , 笔者 提出 公式 (4) 
计算 节点 之 间 的 聚 类 影响 力 转移 概率 。 
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VoteWeight(v) 
VoteWeight(w) 


3.3 ”转移 矩阵 计算 与 关键 词 抽取 
根据 链接 分 析 理 论 ， 只 要 给 定 图 中 节点 之 间 的 跳 
转 概率 转移 矩阵 ， 节 点 重要 性 就 可 以 通过 和 迭代 计算 得 


Peluster (u Es v) 至 > (4) 


weadij[u] 


到 . 令 逢 阵 以 表示 词 图 节点 之 间 的 概率 转移 矩阵 中， 如 
公式 (5) 所 示 。 
[pn Pi **%* Pi 
M = 和 (5) 
Bar Dig ™™ Dr 


其 中 , M 中 的 第 j 列表 示 由 词语 节点 j 跳 转 到 其 他 
节点 的 概率 分 布 , 每 列 的 跳 转 概率 之 和 为 1。 相 应 的 ， 
pw 表示 由 节点 wu 跳 转 到 节点 v 的 转移 概率 ， 即 
Pw =PU NV), 

为 改进 TextRank 关键 词 抽取 效果 , 笔者 在 先前 提 
出 的 词语 位 置 加 权 基 础 上 叫 ， 进 一 步 融合 词 向 量 聚 类 
加 权 ， 对 随机 跳 转 概率 p(u 一 v) 进行 合理 赋值 。 

在 文献 [2] 中 , 令 p,,(u 一 v) 表示 2 一 v 的 覆盖 
影响 力 , 通过 公式 (2) 计 算 求 值 , 代表 传统 的 TextRank 
的 投票 贡献 。 令 pj.(u 一 由 表示 2 一 的 位 置 影响 力 ， 
通过 公式 (0) 计 算 叫 。 


IT(v) 
TV) 

其 中 ，I(v) 表示 节点 v 的 位 置 重要 性 , 参照 文献 [2] 
的 实验 结果 , 当 v 出 现在 标题 中 时 , 令 I(v) =30, 否 
则 7) =1。 

根据 节点 之 间 的 覆盖 影响 力 、 位 置 影响 力 和 聚 类 
加 权 影 响 力 , 笔者 提出 公式 (7) 来 计算 节点 u 一 v 之 间 
的 跳 转 概 率 。 
plUTV)=axpo (uu FV +PBX pou TV)+ 

YX Panster (U > ») (7) 

其 中 ，ag +B+y=1。 利 用 公式 (7) 即 可 生成 最 终 

的 转移 矩阵 M。 对 于 以 候选 关键 词 表 示 的 文档 


Poc 一 切 = Ey (6) 


vie:adjlu] 


4d = ftw,wy,…,w,} ,参照 文献 [2] 的 处 理 策略 , 设 定 记 
图 节点 的 初始 分 值 如 公式 (8) 所 示 。 
1 1 1 
BD] (8) 
nn n 


则 进一步 采用 公式 (9) 进 行 迭 代 运 算 门 。 
B=dxMxB, +(-d)x< (9) 
n 


其 中 ,e 是 一 个 所 有 分 量 均 为 1 的 维 向 量 ，B, 表 
示 第 i 次 迭代 运算 结束 后 , 每 个 词 图 节点 的 分 值 。 当 两 
次 迭代 运算 结果 B 与 B, | 之 间 的 差异 非常 小 , 趋 近 于 
0 时 , 停止 迭代 ， 此 时 ,每 个 节点 的 得 分 即 为 其 在 图 中 
的 重要 性 程度 , 按照 其 得 分 大 小 降序 排序 ,挑选 前 
TopN 个 节点 作为 关键 词 抽取 结果 ,实现 关键 词 抽取 。 


4 实验 


4.1 实验 数据 

选取 2015 年 6 月 发 布 的 维基 百科 中 文 导出 数据 
“zhwiki-20150602-pages-articles-multistream.xml.bz” 。 
该 数据 集 共 包含 2 648 029 个 页 面 , 其 中 文章 页 面 共 
有 1480 963 个 , 占 页 面 总 数量 的 55.93%。 通 过 过 滤 跳 
转 文 章 和 内 容 较 短 的 文章 等 数据 清洗 处 理 之 后 , 最终 
保留 了 516 695 个 页 面 。 通 过 中 文 分 词 工具 Ansj 进行 
分 词 中 ,形成 供 Word2Vec 学 习 的 文本 数据 集 , 然后 采 
用 Gensim 的 Word2Vec 模块 04， 以 默认 参数 (采用 
CBOW 模型 、 维 度 为 100、 窗 口 大 小 为 9) 对 这 批文 本 
数据 进行 训练 得 到 词 向 量 模 型 文件 ”。 

针对 关键 词 抽取 测试 数据 集 ,文献 [2] 利 用 正文 自 
动 抽取 算法 , 提取 1 000 篇 新 闻 报 道 的 标题 、 正 文 和 
META 字段 中 的 关键 词 形 成 公开 测试 数据 集 , 但 该 数 
据 集 的 关键 词 标注 质量 不 高 , 存在 以 标题 本 身 作 为 关 
键 词 和 关键 词 与 内 容 相关 度 不 高 的 情况 ， 因 此 ， 本 实 
验 定向 采集 了 南方 周末 网 站 的 1 524 篇 文章 , 提取 其 标 
题 和 正文 ， 并 以 网 页 中 明确 标记 的 标签 作为 文章 对 应 
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的 关键 词 , 构建 形成 新 的 测试 数据 集 ”， 该 数据 集中 平 
均 每 篇 文档 包含 2 629.101 个 字符 和 3.565 个 关键 词 。 
4.2 ”实验 结果 及 分 析 
为 便于 与 已 有 方法 对 比分 析 , 笔者 采用 准确 率 己 、 
召回 率 R 以 及 宏 平均 人 值 作为 关键 词 抽取 效果 的 评判 
标准 , 令 K, 表示 测试 数据 集中 文章 本 身 所 提供 的 关 
键 词 集合 ，Ks 表示 算法 抽取 出 的 关键 词 集合 , 则 P、R 
和 下 值 的 计算 方法 如 公式 (10) 所 示 叫 。 
_|K NK, | _|K NK,| 
|Ks | |K,| 


2xPxR 
P+R 
(10) 

与 文献 [6-7] 保 持 一 致 ， 实 验 中 首先 提取 3、5、7、 
10 个 关键 词 作为 自动 抽取 所 保留 的 关键 词 与 数据 集 
本 身 提供 的 关键 词 进 行 对 比 。 实 验 中 对 比 的 方法 有 : 
M1: 文献 [1] 提 出 的 最 初 的 TextRank 关键 词 抽取 。 
M2: 文献 [6] 提 出 的 基于 Word2Vec 的 词 向 量 聚 类 
关键 词 抽取 。 

M3: 文献 [7] 提 出 的 融合 Word2Vec 与 TextRank 
的 关键 词 抽 取 。 

M4: 文献 [2] 提 出 的 词语 位 置 加 权 TextRank 关键 
词 抽取 。 

M5: 本 文 提出 的 词 向 量 聚 类 加 权 TextRank 关键 
词 抽取 。 

其 中 ,实验 中 所 涉及 的 聚 类 分 析 部 分 均 采 用 K 均 
值 聚 类 法 ， 聚 类 迭代 次 数 为 20， 对 比方 法 涉及 的 其 他 
参数 取 各 自 文献 中 采用 的 最 优 值 。 同 时 , 笔者 公开 了 
所 有 相关 数据 和 代码 ,以 方便 读者 对 比 或 重 现实 验 ”。 
实验 结果 如 表 1 所 示 。 


P 


? ? 


表 1 不 同 关键 词 抽取 算法 的 结果 对 比 (TopN 取 3,5,7,10) 
TopN=3 TopN=5 TopN=7 TopN = 10 
|y 及 F P R FE BB 及 F BB 及 F 

MI 0.304 0.259 0.277 0.230 0.326 0.267 0.188 0.372 0.247 0.151 0.424 0.221 
M2 0.119 0.191 0.143 0.095 0.240 0.131 0.080 0.263 0.116 0.072 0.295 0.107 
M3 0.019 0.016 0.017 0.017 0.024 0.020 0.016 0.032 0.021 0.018 0.051 0.027 
M4 0.356 0.306 0.326 0.270 0.383 0.313 0.217 0.428 0.284 0.170 0.479 0.249 
M5 0.369 0.316 0.337 0.276 0.391 0.320 0.218 0.430 0.286 0.169 0.477 0.247 

中 实验 生成 的 维基 百科 文本 数据 集 和 词 向 量 模型 文件 ,可 访问 以 下 网 址 获取 : https://github.com/iamxiatian/ x-extractor/. 

@) 测 试 数据 集 保存 成 为 XML 格式 ， 可 以 从 以 下 网 站 下 载 : https://github.com/iamxiatian/x-extractor/tree/master/data/articles.xml. 


https://github.com/iamxiatian/x-extractor/. 
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由 表 1 得 出 , 对 于 单 文 档 关键 词 抽取 ,基于 文章 
结构 信息 和 投票 机 制 的 TextRank 方法 显著 优 于 词 向 
量 聚 类 法 (方法 M2), 词 向 量 聚 类 法 虽然 能 够 把 语义 相 
关联 的 词语 聚 到 一 起 , 但 选择 距离 质心 最 近 的 词语 作 
为 关键 词 效 果 并 不 理想 ; 与 之 前 研究 结论 相 吻 合 ， 对 
TextRank 的 跳 转 概 率 做 非 均 匀 加 权能 够 改善 关键 词 抽 
取 效 果 。 然而 , 方法 M3 在 节点 重要 性 传递 时 ,直接 计 
算 节 点 之 间 的 词 向 量 余 弦 相 似 度 ， 以 更 大 概率 转移 到 
相似 度 更 高 的 词语 上 , 在 测试 数据 集 上 的 表现 效果 较 
差 。 与 方法 M3 不 同 , 本 文 首先 通过 来 类 确定 词语 在 
词 向 量 空 间 下 的 语义 簇 ， 在 篮 范 围 内 根据 节点 与 质心 
的 距离 确定 其 投票 重要 性 ， 当 保留 的 关键 词 数量 小 于 


ChinaXiv 合 作 期 刊 


研究 文 


等 于 7 个 时 , 均 优 于 其 他 方法 , 表明 词 向 量 聚 类 加 权 
能 够 提升 重要 关键 词 的 排序 结果 。 

为 全 面 观察 不 同 关 键 词 抽 取 方 法 的 差异 , 笔者 以 
曲线 形式 进一步 给 出 了 TopN 取 值 在 [1,10] 时 , 5 种 方法 
的 准确 率 召回 率 和 成 值 的 整体 变化 情况 , 如 图 2 所 示 。 
整体 看 来 , 词 向 量 聚 类 加 权 TextRank 方法 和 词语 位 置 
加 权 TextRank 方法 ， 显 著 优 于 所 对 比 的 其 他 三 种 方法 ; 
当 TopN 取 值 限定 在 5 个 及 以 内 时 , 词 向 量 聚 类 加 权 比 
词语 位 置 加 权 有 较为 明显 的 改进 效果 , 当 TopN 取 值 不 
断 增 大 ,， 词 向 量 聚 类 加 权 与 词语 位 置 加 权 的 抽取 效果 
差异 不 大 。 当 TopN = 3 时 , 方法 M4 和 M5 的 五 值 同 时 
取得 最 大 值 ， 此 时 , M5 比 M4 增 量 提升 了 3.374%。 


12345678910 
(a) 准确 率 


为 观察 本 文 方法 在 抽取 效果 较 差 的 情况 下 具体 的 
关键 词 输出 结果 , 笔者 挑选 与 标注 关键 词 结果 完全 不 
同 的 文档 , 把 各 种 方法 的 输出 结果 组 织 到 表 2 之 中 ， 
其 中 , 各 个 方法 抽取 结果 保留 的 关键 词 数 量 与 原始 文 
档 给 出 的 标签 数量 保持 一 致 ”。 

表 2 完全 未 命中 原始 关键 词 的 抽取 结果 示例 

文档 


下 101037 24576 26808 
编号 
标注 ”民企 , 军工 ， 日 本 侵 华 , 轮船 ， 财政 部 , 金融 
结果 融合 索赔 ， 陈 春 高 管 ， 限 薪 
| 政府 , 公司 ， 日 本 , 陈 顺 通 ， 薪酬 ,金融 机 构 ， 
日 本 陈 洽 群 ,律师 国有 
Nig 企业 , 政府， 陈 顺 通 ,幼子 ， 国有 , 金融 机 构 ， 
日 本 上 海 , 三井 水 平 
区 企业 , 政府 ， 租金， 见证 ， 征求 ， 相 关 ， 
日 本 航运 业 ， 预 定 监事 长 
Ni 军火 , 企业 ， 船 王 ,日 本 ， 金融 机 构 ， 
日 本 陈 顺 通 ， 陈 洽 群 ”薪酬 ， 国 有 
军火 , 企业 ， 船 王 ， 民 间 ， 金融 机 构 ， 
政府 日 本 ， 陈 顺 通 国有 ,薪酬 
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(b) 召回 率 (CO) F 值 


图 2 TopN 取 值 [1, 10] 时 , 方法 M1 至 方法 M5 的 准确 率 、 召 回 率 和 厂 值 
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对 于 表 2 所 示 的 抽取 结果 完全 未 命中 的 情况 , 方 
法 Ml .方法 M4 和 方法 M5 均 属 于 词 图 迭代 计算 方法 ， 
输出 结果 具有 较 高 的 重 秋 性, 能够 在 一 定 程度 上 代表 
文档 的 主要 内 容 , M2 的 部 分 结果 与 文本 有 一 定 关 联 ， 
而 M3 的 结果 相对 较 差 。 综 上 分 析 , 可 以 得 出 结论 : 

(1) 对 于 单 文档 直接 应 用 词 向 量 聚 类 分 析 , 选择 
每 个 聚 类 簇 的 代表 性 词语 作为 关键 词 ,效果 不 佳 。 

(2) TextRank 在 单 文档 关键 词 抽取 方面 具有 较为 
稳定 的 效果 , 通过 词语 位 置 加 权 和 词 向 量 聚 类 加 权 可 
以 进一步 提升 TextRank 的 抽取 准确 性 。 


S 结 语 


本 文 以 词 向 量 聚 类 加 权 方 式 , 将 维基 百科 的 世界 
知识 纳入 到 TextRank 的 关键 词 抽取 过 程 中 ,以 改善 关 
键 词 抽取 效果 ,与 基于 逆 文 档 频 率 或 LDA 的 改进 方法 
不 同 , 词 向 量 的 训练 不 依赖 于 关键 词 所 在 的 数据 集 ， 


字符 串 “http://www.infzm.com/content 让 后 面 附加 上 文档 编号 ， 即 为 文档 的 URL 访问 地 址 。 


数据 分 析 与 知识 发 现 


201711.01966v1 


chinaXiv 


抽取 结果 相对 更 为 客观 稳定 。 实 验 结果 表明 , 保留 的 
关键 词 数 量 越 少 , 词 向 量 聚 类 加 权 的 抽取 效果 改善 越 
显著 ， 当 保留 的 关键 词 数量 TopN 超过 7 以 后 ， 聚 类 加 
权 与 单纯 的 位 置 加 权 没 有 显著 差异 。 

下 一 步 的 研究 内 容 包 括 : 探索 更 合理 的 词 向 量 聚 
类 结果 加 权 方 法 ; 从 序 的 角度 对 关键 词 抽取 结果 进行 
全 面 评价 。 
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Abstract: [Objective] This study aims to improve the single document keyword extraction algorithm by adding the 
world knowledge vector from the Wikipedia to the TextRank model. [Methods] First, we created a new word 
embedding model based on the Word2Vec model with Wikipedia’s Chinese data. Second, we clustered the nodes of 
TextRank wordgraph to adjust the voting importance of each cluster. Third, we calculated the random walk probability 
with additional factors of coverage and location. Finally, we got the node score with iterative computation of the 
transition matrix, and then selected the Top N words as the needed keywords. [Results] The performance of the new 
TextRank model was much better than other methods when the Top N value was less than or equal to 7. If we only 
retrieved three keywords, the F measure reached its maximum value, which was 3.374% higher than the best existing 
results. When the Top N value was larger than 7, the results were similar to the traditional TextRank method. 
[Limitations] The computation cost was increased due to the cluster analysis. [Conclusions] The new weighted 
TextRank model could extract keywords effectively. 

Keywords: Keyword Extraction Word Embedding TextRank Word2vec 


Knowledge Unlatched 和 JSTOR 合作 研究 如 何 利用 开放 获取 图 书 


人 文 社会 科学 专著 开放 获取 支持 计划 Knowledge Unlatched(KU) 和 JSTOR 数字 图 书馆 正在 合作 研究 开放 获取 资源 的 使 用 
模式 .虽然 KU 将 继续 在 OAPEN 和 HathiTrust 平 台 上 托管 资源 , 但 同时 也 会 将 30 多 个 开放 获取 图 书 资源 交 由 JSTOR 托管 , 包 
括 历 史 、 文 学 、 政 治 科 学 、 人 类 学 和 媒体 与 传播 等 领域 的 图 书 ， 所 有 这 些 都 是 由 世界 领先 的 学 术 出 版 社 出 版 的 ， 并 在 世界 各 
地 的 图 书馆 的 支持 下 成 功 “解锁 ”( 开 放 获 取 )。 

KU 总 经 理 Sven Fund 博士 说 :“ 内 容 的 广泛 使 用 是 开放 获取 的 核心 , 这 对 Knowledge Unlatched 来 说 是 非常 重要 的 。 在 我 
们 的 倡议 下 出 版 商 和 图 书馆 一 直 在 共同 努力 寻求 资源 访问 的 便捷 性 ， 从 而 扩大 人 文 社会 科学 专著 的 使 用 。” 

JSTOR 图 书馆 馆 长 Frank Smith 表示 : “我 们 很 高 兴 与 Knowledge Unlatched 合作 ， 为 全 世界 的 研究 人 员 提 供 这 些 高 质量 的 
图 书 。 我 们 期 待 双方 能 深入 研究 ,以 了 解 开放 获取 图 书 的 使 用 情况 和 影响 力 。” 

(编译 自 : http://www.knowledgeunlatched.org/2017/02/jstor/) 


(本 刊 讯 ) 
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